3章 RoBERTaモデルのゼロからの事前訓練
https://github.com/PacktPublishing/Transformers-for-Natural-Language-Processing/blob/main/Chapter03/KantaiBERT.ipynb
KantaiBERT(transformerモデル)を訓練
KantaiBERTのデータセット
!pip list | grep -E 'transformers|tokenizers'
tokenizers 0.12.1
transformers 4.18.0
ByteLevelBPETokenizerの訓練
& 保存
tokenizerによるエンコード
(👈RoBERTaの訓練には不要)
transformersのRoBERTaモデル訓練の準備
& 訓練
訓練したRoBERTaモデルでマスクを埋めてみる
訓練したRoBERTaモデルのエクスポート
誤植や誤りと思われる箇所(Transformerによる自然言語処理 3章)
https://youtu.be/9l3OX0uKYN8
ref:
https://github.com/PacktPublishing/Transformers-for-Natural-Language-Processing/issues/3#issuecomment-873001691